AI资讯新闻榜单内容搜索- DeepSeek

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索:  DeepSeek
体验英伟达 AI 个人超算「核弹」DGX Spark,能微调出 DeepSeek R2 吗

体验英伟达 AI 个人超算「核弹」DGX Spark,能微调出 DeepSeek R2 吗

体验英伟达 AI 个人超算「核弹」DGX Spark,能微调出 DeepSeek R2 吗

最近,APPSO 终于拿到了这台来自黄仁勋倾情推荐的个人超算,英伟达 DGX Spark;到手的第一感觉,就是「小而美」。这电脑也太小了,没有 Mac Studio 那般笨重,可能就和 Mac Mini 差不多大;然后是银色的亮和用来散热的金属丝网又让它有点不一样,是专属的硬核美感。

来自主题: AI资讯
7549 点击    2025-12-31 15:19
AI 参数战争下的"隐秘战场":为何全球顶级厂商集体转向"游戏"?

AI 参数战争下的"隐秘战场":为何全球顶级厂商集体转向"游戏"?

AI 参数战争下的"隐秘战场":为何全球顶级厂商集体转向"游戏"?

回顾 2025 年,如果问普通人对 AI 行业最深刻的印象是什么?答案依然是激烈的“参数战争”:有 DeepSeek、Gemini 3 等大模型的集体爆发,也有文生图、文生视频能力的持续惊艳。

来自主题: AI资讯
8431 点击    2025-12-24 10:10
经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。

来自主题: AI技术研报
6033 点击    2025-12-18 09:46
Mistral再开源!发布代码模型Devstral 2及原生CLI,但大公司被限制商用

Mistral再开源!发布代码模型Devstral 2及原生CLI,但大公司被限制商用

Mistral再开源!发布代码模型Devstral 2及原生CLI,但大公司被限制商用

刚刚,「欧洲的 DeepSeek」Mistral AI 再次开源,发布了其下一代代码模型系列:Devstral 2。该系列开源模型包含两个尺寸:Devstral 2 (123B) 和 Devstral Small 2 (24B)。用户目前也可通过官方的 API 免费使用它们。

来自主题: AI资讯
8571 点击    2025-12-10 14:41
DeepSeek V3到V3.2的进化之路,一文看全

DeepSeek V3到V3.2的进化之路,一文看全

DeepSeek V3到V3.2的进化之路,一文看全

12 月 1 日,DeepSeek 一口气发布了两款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。几天过去,热度依旧不减,解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读,其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

来自主题: AI技术研报
7941 点击    2025-12-08 12:48
老外傻眼!明用英文提问,DeepSeek依然坚持中文思考

老外傻眼!明用英文提问,DeepSeek依然坚持中文思考

老外傻眼!明用英文提问,DeepSeek依然坚持中文思考

就在前天,DeepSeek 一口气上新了两个新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

来自主题: AI技术研报
7809 点击    2025-12-04 11:37
刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0

刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0

刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0

刚刚,「欧洲的 DeepSeek」Mistral AI 刚刚发布了新一代的开放模型 Mistral 3 系列模型。该系列有多个模型,具体包括:「世界上最好的小型模型」:Ministral 3(14B、8B、3B),每个模型都发布了基础版、指令微调版和推理版。

来自主题: AI资讯
8030 点击    2025-12-03 08:26
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路

大模型推理的爆发,实际源于 scaling 范式的转变:从 train-time scaling 到 test-time scaling(TTS),即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法:通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗?

来自主题: AI技术研报
7883 点击    2025-11-30 09:30